11 research outputs found

    Newton acceleration on manifolds identified by proximal-gradient methods

    Full text link
    Proximal methods are known to identify the underlying substructure of nonsmooth optimization problems. Even more, in many interesting situations, the output of a proximity operator comes with its structure at no additional cost, and convergence is improved once it matches the structure of a minimizer. However, it is impossible in general to know whether the current structure is final or not; such highly valuable information has to be exploited adaptively. To do so, we place ourselves in the case where a proximal gradient method can identify manifolds of differentiability of the nonsmooth objective. Leveraging this manifold identification, we show that Riemannian Newton-like methods can be intertwined with the proximal gradient steps to drastically boost the convergence. We prove the superlinear convergence of the algorithm when solving some nondegenerated nonsmooth nonconvex optimization problems. We provide numerical illustrations on optimization problems regularized by â„“1\ell_1-norm or trace-norm

    Hybrid Methods in Polynomial Optimisation

    Full text link
    The Moment/Sum-of-squares hierarchy provides a way to compute the global minimizers of polynomial optimization problems (POP), at the cost of solving a sequence of increasingly large semidefinite programs (SDPs). We consider large-scale POPs, for which interior-point methods are no longer able to solve the resulting SDPs. We propose an algorithm that combines a first-order Burer-Monteiro-type method for solving the SDP relaxation, and a second-order method on a non-convex problem obtained from the POP. The switch from the first to the second-order method is based on a quantitative criterion, whose satisfaction ensures that Newton's method converges quadratically from its first iteration. This criterion leverages the point-estimation theory of Smale and the active-set identification. We illustrate the methodology to obtain global minimizers of large-scale optimal power flow problems

    Structured nonsmooth optimization : proximal identification, fast local convergence, and applications

    No full text
    Cette thèse traite de l'optimisation de fonctions non-différentiables structurées, qui apparaissent notamment en apprentissage statistique et en traitement du signal. En particulier, nous considérons des fonctions matricielles, qui mettent en jeu les valeurs propres ou la norme nucléaire. Notre approche consiste à exploiter la structure de ces fonctions non-différentiables pour développer des algorithmes qui convergent rapidement – à la vitesse de la méthode de Newton – et qui retournent ainsi des estimations précises des solutions.Plus précisément, les points de non-différentiabilité des fonctions structurées s'organisent en variétés différentiables, qui captent les directions de différentiabilité dans l'espace tangent et les directions de non-différentiabilité dans l'espace normal. Dans cette thèse, nous proposons des algorithmes qui détectent et exploitent ces variétés de structure. Les deux outils clés pour notre approche sont (i) des propriétés géométriques fines de l'opérateur proximal, et (ii) les méthodes algorithmiques de l'optimisation sous contraintes. Nous raisonnons sans supposer connue la variété optimale, et utilisons les outils de l'analyse variationnelle pour couvrir simultanément les cas convexes et non-convexes.Nous considérons d'abord la minimisation de la somme d'une fonction différentiable et d'une fonction non-différentiable, cadre qui inclut notamment les problèmes de régression parcimonieuse tels que le lasso. Nous montrons que l'opérateur gradient-proximal, connu pour ses propriétés de minimisation, identifie aussi les variétés de non-différentiabilité pertinentes. Nous proposons un algorithme qui combine ce résultat d'identification avec des outils de l'optimisation Riemannienne, et montrons qu'il converge localement quadratiquement. Cette convergence rapide est illustrée en pratique sur des problèmes d'apprentissage classiques.Nous considérons ensuite la minimisation de la composition entre une application différentiable et une fonction non-différentiable. Ce cadre couvre notamment la minimisation de la valeur propre maximale d'une matrice symétrique paramétrée. Nous introduisons et caractérisons un outil d'identification proximale, qui détecte les variétés de non-différentiabilité autour de tout point. Nous montrons que cet outil peut être combiné avec des itérations de Newton de l'optimisation différentiable sous contrainte. Nous démontrons que l'algorithme obtenu détecte localement la variété d'un minimiseur et converge quadratiquement. Nous comparons notre algorithme avec l'état de l'art pour l'optimisation non-différentiable.Ainsi, les procédés d'identification proximale proposés dans cette thèse sont à même de détecter efficacement les variétés pertinentes des fonctions non-différentiables additives et composites. Les algorithmes obtenus, ainsi que les ressorts numériques sur lesquels ils reposent, sont mis à disposition de la communauté sous forme de paquets Julia open source.This thesis deals with the optimization of structured nonsmooth functions, which appear for example in machine learning and signal processing. In particular, we consider matrix functions which feature eigenvalue functions and the nuclear norm. Our approach consists in exploiting the structure of these nonsmooth functions to design algorithms that converge fast – at the speed of Newton's method, thus yielding high precision estimates of nonsmooth minimizers.More precisely, the nondifferentiability points of structured functions organize in smooth manifolds, such that the nonsmooth function is smooth along the manifold and nonsmooth across it. In this thesis, we propose optimization algorithms that detect and exploit these structure manifolds. The two key ingredients in our approach are (i) subtle geometrical properties of the proximal operator, and (ii) algorithmic tools from smooth constrained programming. We operate without assuming knowledge of the optimal structure manifold, and use variational analysis tools to cover both convex and nonconvex settings.We first consider the minimization of the sum of a smooth function and a nonsmooth function, which encompasses sparse regression problems such as the lasso. We show that the proximal-gradient operator, well-known for its minimization properties, also identifies relevant structure manifolds. We propose an algorithm that combines this identification information with tools from Riemannian optimization, and prove that it converges locally quadratically. We illustrate numerically this fast convergence on classical learning problems.We also consider the minimization of the composition between a smooth map and a nonsmooth function. This setting encompasses the minimization of the largest eigenvalue of a smoothly parameterized symmetric matrix. We introduce and characterize a proximal identification tool that detects relevant structure manifolds near arbitrary points. We propose an algorithm that combines this tool with Newton steps for smooth constrained minimization. We prove that, when started near a minimizer, the algorithm exactly identifies its optimal manifold and converges quadratically. We compare our algorithm with state-of-the-art algorithms for nonsmooth optimization.Thus, the proximal identification procedures proposed in this thesis detect efficiently the relevant manifolds of additive and composite nonsmooth functions. The obtained algorithms are carefully implemented in the Julia language and are released as open-source packages

    Optimisation non-lisse structurée : identification proximale, convergence locale rapide et applications

    No full text
    This thesis deals with the optimization of structured nonsmooth functions, which appear for example in machine learning and signal processing. In particular, we consider matrix functions which feature eigenvalue functions and the nuclear norm. Our approach consists in exploiting the structure of these nonsmooth functions to design algorithms that converge fast – at the speed of Newton's method, thus yielding high precision estimates of nonsmooth minimizers.More precisely, the nondifferentiability points of structured functions organize in smooth manifolds, such that the nonsmooth function is smooth along the manifold and nonsmooth across it. In this thesis, we propose optimization algorithms that detect and exploit these structure manifolds. The two key ingredients in our approach are (i) subtle geometrical properties of the proximal operator, and (ii) algorithmic tools from smooth constrained programming. We operate without assuming knowledge of the optimal structure manifold, and use variational analysis tools to cover both convex and nonconvex settings.We first consider the minimization of the sum of a smooth function and a nonsmooth function, which encompasses sparse regression problems such as the lasso. We show that the proximal-gradient operator, well-known for its minimization properties, also identifies relevant structure manifolds. We propose an algorithm that combines this identification information with tools from Riemannian optimization, and prove that it converges locally quadratically. We illustrate numerically this fast convergence on classical learning problems.We also consider the minimization of the composition between a smooth map and a nonsmooth function. This setting encompasses the minimization of the largest eigenvalue of a smoothly parameterized symmetric matrix. We introduce and characterize a proximal identification tool that detects relevant structure manifolds near arbitrary points. We propose an algorithm that combines this tool with Newton steps for smooth constrained minimization. We prove that, when started near a minimizer, the algorithm exactly identifies its optimal manifold and converges quadratically. We compare our algorithm with state-of-the-art algorithms for nonsmooth optimization.Thus, the proximal identification procedures proposed in this thesis detect efficiently the relevant manifolds of additive and composite nonsmooth functions. The obtained algorithms are carefully implemented in the Julia language and are released as open-source packages.Cette thèse traite de l'optimisation de fonctions non-différentiables structurées, qui apparaissent notamment en apprentissage statistique et en traitement du signal. En particulier, nous considérons des fonctions matricielles, qui mettent en jeu les valeurs propres ou la norme nucléaire. Notre approche consiste à exploiter la structure de ces fonctions non-différentiables pour développer des algorithmes qui convergent rapidement – à la vitesse de la méthode de Newton – et qui retournent ainsi des estimations précises des solutions.Plus précisément, les points de non-différentiabilité des fonctions structurées s'organisent en variétés différentiables, qui captent les directions de différentiabilité dans l'espace tangent et les directions de non-différentiabilité dans l'espace normal. Dans cette thèse, nous proposons des algorithmes qui détectent et exploitent ces variétés de structure. Les deux outils clés pour notre approche sont (i) des propriétés géométriques fines de l'opérateur proximal, et (ii) les méthodes algorithmiques de l'optimisation sous contraintes. Nous raisonnons sans supposer connue la variété optimale, et utilisons les outils de l'analyse variationnelle pour couvrir simultanément les cas convexes et non-convexes.Nous considérons d'abord la minimisation de la somme d'une fonction différentiable et d'une fonction non-différentiable, cadre qui inclut notamment les problèmes de régression parcimonieuse tels que le lasso. Nous montrons que l'opérateur gradient-proximal, connu pour ses propriétés de minimisation, identifie aussi les variétés de non-différentiabilité pertinentes. Nous proposons un algorithme qui combine ce résultat d'identification avec des outils de l'optimisation Riemannienne, et montrons qu'il converge localement quadratiquement. Cette convergence rapide est illustrée en pratique sur des problèmes d'apprentissage classiques.Nous considérons ensuite la minimisation de la composition entre une application différentiable et une fonction non-différentiable. Ce cadre couvre notamment la minimisation de la valeur propre maximale d'une matrice symétrique paramétrée. Nous introduisons et caractérisons un outil d'identification proximale, qui détecte les variétés de non-différentiabilité autour de tout point. Nous montrons que cet outil peut être combiné avec des itérations de Newton de l'optimisation différentiable sous contrainte. Nous démontrons que l'algorithme obtenu détecte localement la variété d'un minimiseur et converge quadratiquement. Nous comparons notre algorithme avec l'état de l'art pour l'optimisation non-différentiable.Ainsi, les procédés d'identification proximale proposés dans cette thèse sont à même de détecter efficacement les variétés pertinentes des fonctions non-différentiables additives et composites. Les algorithmes obtenus, ainsi que les ressorts numériques sur lesquels ils reposent, sont mis à disposition de la communauté sous forme de paquets Julia open source

    Optimisation non-lisse structurée : identification proximale, convergence locale rapide et applications

    No full text
    This thesis deals with the optimization of structured nonsmooth functions, which appear for example in machine learning and signal processing. In particular, we consider matrix functions which feature eigenvalue functions and the nuclear norm. Our approach consists in exploiting the structure of these nonsmooth functions to design algorithms that converge fast – at the speed of Newton's method, thus yielding high precision estimates of nonsmooth minimizers.More precisely, the nondifferentiability points of structured functions organize in smooth manifolds, such that the nonsmooth function is smooth along the manifold and nonsmooth across it. In this thesis, we propose optimization algorithms that detect and exploit these structure manifolds. The two key ingredients in our approach are (i) subtle geometrical properties of the proximal operator, and (ii) algorithmic tools from smooth constrained programming. We operate without assuming knowledge of the optimal structure manifold, and use variational analysis tools to cover both convex and nonconvex settings.We first consider the minimization of the sum of a smooth function and a nonsmooth function, which encompasses sparse regression problems such as the lasso. We show that the proximal-gradient operator, well-known for its minimization properties, also identifies relevant structure manifolds. We propose an algorithm that combines this identification information with tools from Riemannian optimization, and prove that it converges locally quadratically. We illustrate numerically this fast convergence on classical learning problems.We also consider the minimization of the composition between a smooth map and a nonsmooth function. This setting encompasses the minimization of the largest eigenvalue of a smoothly parameterized symmetric matrix. We introduce and characterize a proximal identification tool that detects relevant structure manifolds near arbitrary points. We propose an algorithm that combines this tool with Newton steps for smooth constrained minimization. We prove that, when started near a minimizer, the algorithm exactly identifies its optimal manifold and converges quadratically. We compare our algorithm with state-of-the-art algorithms for nonsmooth optimization.Thus, the proximal identification procedures proposed in this thesis detect efficiently the relevant manifolds of additive and composite nonsmooth functions. The obtained algorithms are carefully implemented in the Julia language and are released as open-source packages.Cette thèse traite de l'optimisation de fonctions non-différentiables structurées, qui apparaissent notamment en apprentissage statistique et en traitement du signal. En particulier, nous considérons des fonctions matricielles, qui mettent en jeu les valeurs propres ou la norme nucléaire. Notre approche consiste à exploiter la structure de ces fonctions non-différentiables pour développer des algorithmes qui convergent rapidement – à la vitesse de la méthode de Newton – et qui retournent ainsi des estimations précises des solutions.Plus précisément, les points de non-différentiabilité des fonctions structurées s'organisent en variétés différentiables, qui captent les directions de différentiabilité dans l'espace tangent et les directions de non-différentiabilité dans l'espace normal. Dans cette thèse, nous proposons des algorithmes qui détectent et exploitent ces variétés de structure. Les deux outils clés pour notre approche sont (i) des propriétés géométriques fines de l'opérateur proximal, et (ii) les méthodes algorithmiques de l'optimisation sous contraintes. Nous raisonnons sans supposer connue la variété optimale, et utilisons les outils de l'analyse variationnelle pour couvrir simultanément les cas convexes et non-convexes.Nous considérons d'abord la minimisation de la somme d'une fonction différentiable et d'une fonction non-différentiable, cadre qui inclut notamment les problèmes de régression parcimonieuse tels que le lasso. Nous montrons que l'opérateur gradient-proximal, connu pour ses propriétés de minimisation, identifie aussi les variétés de non-différentiabilité pertinentes. Nous proposons un algorithme qui combine ce résultat d'identification avec des outils de l'optimisation Riemannienne, et montrons qu'il converge localement quadratiquement. Cette convergence rapide est illustrée en pratique sur des problèmes d'apprentissage classiques.Nous considérons ensuite la minimisation de la composition entre une application différentiable et une fonction non-différentiable. Ce cadre couvre notamment la minimisation de la valeur propre maximale d'une matrice symétrique paramétrée. Nous introduisons et caractérisons un outil d'identification proximale, qui détecte les variétés de non-différentiabilité autour de tout point. Nous montrons que cet outil peut être combiné avec des itérations de Newton de l'optimisation différentiable sous contrainte. Nous démontrons que l'algorithme obtenu détecte localement la variété d'un minimiseur et converge quadratiquement. Nous comparons notre algorithme avec l'état de l'art pour l'optimisation non-différentiable.Ainsi, les procédés d'identification proximale proposés dans cette thèse sont à même de détecter efficacement les variétés pertinentes des fonctions non-différentiables additives et composites. Les algorithmes obtenus, ainsi que les ressorts numériques sur lesquels ils reposent, sont mis à disposition de la communauté sous forme de paquets Julia open source

    Optimisation non-lisse structurée : identification proximale, convergence locale rapide et applications

    No full text
    This thesis deals with the optimization of structured nonsmooth functions, which appear for example in machine learning and signal processing. In particular, we consider matrix functions which feature eigenvalue functions and the nuclear norm. Our approach consists in exploiting the structure of these nonsmooth functions to design algorithms that converge fast – at the speed of Newton's method, thus yielding high precision estimates of nonsmooth minimizers.More precisely, the nondifferentiability points of structured functions organize in smooth manifolds, such that the nonsmooth function is smooth along the manifold and nonsmooth across it. In this thesis, we propose optimization algorithms that detect and exploit these structure manifolds. The two key ingredients in our approach are (i) subtle geometrical properties of the proximal operator, and (ii) algorithmic tools from smooth constrained programming. We operate without assuming knowledge of the optimal structure manifold, and use variational analysis tools to cover both convex and nonconvex settings.We first consider the minimization of the sum of a smooth function and a nonsmooth function, which encompasses sparse regression problems such as the lasso. We show that the proximal-gradient operator, well-known for its minimization properties, also identifies relevant structure manifolds. We propose an algorithm that combines this identification information with tools from Riemannian optimization, and prove that it converges locally quadratically. We illustrate numerically this fast convergence on classical learning problems.We also consider the minimization of the composition between a smooth map and a nonsmooth function. This setting encompasses the minimization of the largest eigenvalue of a smoothly parameterized symmetric matrix. We introduce and characterize a proximal identification tool that detects relevant structure manifolds near arbitrary points. We propose an algorithm that combines this tool with Newton steps for smooth constrained minimization. We prove that, when started near a minimizer, the algorithm exactly identifies its optimal manifold and converges quadratically. We compare our algorithm with state-of-the-art algorithms for nonsmooth optimization.Thus, the proximal identification procedures proposed in this thesis detect efficiently the relevant manifolds of additive and composite nonsmooth functions. The obtained algorithms are carefully implemented in the Julia language and are released as open-source packages.Cette thèse traite de l'optimisation de fonctions non-différentiables structurées, qui apparaissent notamment en apprentissage statistique et en traitement du signal. En particulier, nous considérons des fonctions matricielles, qui mettent en jeu les valeurs propres ou la norme nucléaire. Notre approche consiste à exploiter la structure de ces fonctions non-différentiables pour développer des algorithmes qui convergent rapidement – à la vitesse de la méthode de Newton – et qui retournent ainsi des estimations précises des solutions.Plus précisément, les points de non-différentiabilité des fonctions structurées s'organisent en variétés différentiables, qui captent les directions de différentiabilité dans l'espace tangent et les directions de non-différentiabilité dans l'espace normal. Dans cette thèse, nous proposons des algorithmes qui détectent et exploitent ces variétés de structure. Les deux outils clés pour notre approche sont (i) des propriétés géométriques fines de l'opérateur proximal, et (ii) les méthodes algorithmiques de l'optimisation sous contraintes. Nous raisonnons sans supposer connue la variété optimale, et utilisons les outils de l'analyse variationnelle pour couvrir simultanément les cas convexes et non-convexes.Nous considérons d'abord la minimisation de la somme d'une fonction différentiable et d'une fonction non-différentiable, cadre qui inclut notamment les problèmes de régression parcimonieuse tels que le lasso. Nous montrons que l'opérateur gradient-proximal, connu pour ses propriétés de minimisation, identifie aussi les variétés de non-différentiabilité pertinentes. Nous proposons un algorithme qui combine ce résultat d'identification avec des outils de l'optimisation Riemannienne, et montrons qu'il converge localement quadratiquement. Cette convergence rapide est illustrée en pratique sur des problèmes d'apprentissage classiques.Nous considérons ensuite la minimisation de la composition entre une application différentiable et une fonction non-différentiable. Ce cadre couvre notamment la minimisation de la valeur propre maximale d'une matrice symétrique paramétrée. Nous introduisons et caractérisons un outil d'identification proximale, qui détecte les variétés de non-différentiabilité autour de tout point. Nous montrons que cet outil peut être combiné avec des itérations de Newton de l'optimisation différentiable sous contrainte. Nous démontrons que l'algorithme obtenu détecte localement la variété d'un minimiseur et converge quadratiquement. Nous comparons notre algorithme avec l'état de l'art pour l'optimisation non-différentiable.Ainsi, les procédés d'identification proximale proposés dans cette thèse sont à même de détecter efficacement les variétés pertinentes des fonctions non-différentiables additives et composites. Les algorithmes obtenus, ainsi que les ressorts numériques sur lesquels ils reposent, sont mis à disposition de la communauté sous forme de paquets Julia open source

    On the interplay between acceleration and identification for the proximal gradient algorithm

    No full text
    International audienceIn this paper, we study the interplay between acceleration and structure identification for the proximal gradient algorithm. We report and analyze several cases where this interplay has negative effects on the algorithm behavior (iterates oscillation, loss of structure, etc.). We present a generic method that tames acceleration when structure identification may be at stake; it benefits from a convergence rate that matches the one of the accelerated proximal gradient under some qualifying condition. We show empirically that the proposed method is much more stable in terms of subspace identification compared to the accelerated proximal gradient method while keeping a similar functional decrease

    Newton acceleration on manifolds identified by proximal-gradient methods

    No full text
    International audienceProximal methods are known to identify the underlying substructure of nonsmooth optimization problems. Even more, in many interesting situations, the output of a proximity operator comes with its structure at no additional cost, and convergence is improved once it matches the structure of a minimizer. However, it is impossible in general to know whether the current structure is final or not; such highly valuable information has to be exploited adaptively. To do so, we place ourselves in the case where a proximal gradient method can identify manifolds of differentiability of the nonsmooth objective. Leveraging this manifold identification, we show that Riemannian Newton-like methods can be intertwined with the proximal gradient steps to drastically boost the convergence. We prove the superlinear convergence of the algorithm when solving some nondegenerated nonsmooth nonconvex optimization problems. We provide numerical illustrations on optimization problems regularized by L1-norm or trace-norm

    Harnessing structure in composite nonsmooth minimization

    No full text
    We consider the problem of minimizing the composition of a nonsmooth function with a smooth mapping in the case where the proximity operator of the nonsmooth function can be explicitly computed. We first show that this proximity operator can provide the exact smooth substructure of minimizers, not only of the nonsmooth function, but also of the full composite function. We then exploit this proximal identification by proposing an algorithm which combines proximal steps with sequential quadratic programming steps. We show that our method identifies the optimal smooth substructure and converges locally quadratically. We illustrate its behavior on two problems: the minimization of a maximum of quadratic functions and the minimization of the maximal eigenvalue of a parametrized matrix
    corecore